Поиск по сходству (BLAST)

Задание 1. Определение таксономии и функции нуклеотидной последовательности.

Для выполнения задания была использована консенсусная последовательность из практикума 6. Чтобы найти похожие последовательности(см.картинку) я воспользовалась BLASTn.

Консенсусная последовательность
картинка

Для определения таксономии я перешла в раздел Taxonomy и посмотрела на предложенные варианты. Заметим, что самый большой показатель Score имеет вид Brada. А также у Brada inhabilis наибольший %identity.

картинка

Судя по выравниванию, может определить, что последовательность аналогична(за исключением неопределнных хроматограммой нуклеотдов) Brada inhabilis.

картинка

Воспользовавшись BLASTx, можно сделать вывод, что последовательность содержит ген гистон H3.

картинка

Задание 2. Сравнение алгоритмов BLAST.

В этом задании требуется сравнить megablast, blastn с параметрами по умолчанию и blastn с самыми чувствительными настройками. Чувствительные настройки-word size и mismatch score. В качестве ограничения поиска я выбрала семейство Flabelligerida.

1)При запуске измененного blastn получается 22 находки. Среди них есть и те, у которых E-value>>0.001 (например равное 7.2)

картинка

2) Blastn выдает 13 находок, причем ни у одной теперь нет E-value=0.0 и максимальное значение снизилось хотя бы до 4.8.

картинка

3) В megablast 9 находок, но с меньшим значением E-value чем в blastn.

картинка
Алгоритм Параметры Число находок
megablast Автоматические
Длина слова = 28; Match/Mismatch scores 1, -2
9
blastn Автоматические
Длина слова = 11; Match/Mismatch scores 2, -3
13
blastn с изменениями Изменённые
Длина слова = 7; Match/Mismatch scores 1, -4
22

Таким образом можно сделать вывод, что что megablast выдаёт более сходные последовательности, чем blastn, что можно сказать и про blastn чувствительный(видим e-value=0), но в отличие от него не выдает последовательности с высокими значениями E-value, что означает отсутсвтие недостоверных находок megablast. Плюс еще megablast работает быстрее других.

Теперь тоже самое проделаю с CDS вируса Microbacterium phage TeddyBoy из практикума 7.

Blastn обычный выдает много находок (155), но больше половины из них недостоверны(e-value>>0.001) (поиск ограничила семейством Siphoviridae)

картинка

Blastn с измененными параметрами выдает 90 находок, появились последовательности с e-value=0.0, но число недостоверных все еще примерно половина.

картинка

Megablast выдал 24 находки. Нет e-value>>0.001, т.е. все находки достоверные. Снова делаем вывод, что megablast самый удобный для поиска достоверных находок

Алгоритм Параметры Число находок
megablast Автоматические
Длина слова = 28; Match/Mismatch scores 1, -2
24
blastn Автоматические
Длина слова = 11; Match/Mismatch scores 2, -3
155
blastn с изменениями Изменённые
Длина слова = 7; Match/Mismatch scores 1, -4
90

Задание 3. Гомологи трёх белков в неаннотированом геноме

Теперь нужно проверить есть ли гомологи белков в геноме организма Amoboaphelidium protococarum (сборка генома в файле на kodomo /P/y18/term3/block2/X5.fasta). Для этого я выбрала три белка, которые точно есть у эукариот: актин(ACT_YEAST), гистон H3 (H3_CAEEL), тубулин(TBB2_CAEEL). Последовательности я получила из RefSeq.

Я использовала Blast+. Первым шагом было создать локальную базу данных. Запрос: makeblastdb -in X5.fasta -dbtype nucl.

Для поиска гомологов я пользовалась tBlastn. Запрос: tblastn -query tubulin.fasta -db X5.fasta -out tubulin.out

Покрытие я посчитала вручную (можно поделить длину лучшего выравнивания на длину белка).

1)Для тубулина получилось: Score = 729 bits (1882), Expect = 0.0, Identities = 371/455 (82%), Positives = 413/455 (91%), Gaps = 22/455 (5%), Frame = -2, Query Cover=96,2%

Судя по значениям,в том числе высокому query cover, можно говорить о гомологии этого белка

2)Для актина получилось: Score = 721 bits (1861), Expect = 0.0, Identities = 333/375 (89%), Positives = 363/375 (97%), Gaps = 0/375 (0%), Frame = -2 , Query cover= 83,3 %.

Можно предположить, что белки гомологичны, но по данным параметрам сходства точно судить мы не можем.

3)Для гистона H3 получилось: Score = 241 bits (615), Expect = 2e-73, Identities = 124/136 (91%), Positives = 127/136 (93%), Gaps = 1/136 (1%), Frame = -3, Query cover= 30%.

В этом случае и по e-value и по query cover можно предположить, что белки негомологичны.

Задание 4. Поиск гена белка в контиге.

Я взяла скэффолд из организма Amoeboaphelidium protococcarum.

Команда для получения информации о длине контигов: infoseq X5.fasta -only -name -length. Я выбрала scaffold-258 длиной 99209 нуклеотидов(seqret X5.fasta:scaffold-258 -out sc258.out).

Используя blastx, я ограничила поиск царством Fungi (тк мы знаем что организм пренадлежит ему) и выбором находок в refseq.

картинка

Результаты поиска представлены на картинке. Можно предположить, что ген кодирует coatomer субъединицу альфа.